DAY23 語音辨識的前端—VAD篇 part4

2023 iThome 鐵人賽

DAY 23

AI & Data

AI與語音辨識系列第 23 篇

15th鐵人賽

meooooow

2023-10-08 11:21:42

897 瀏覽

分享至

你好！

二、基於高斯混合模型的VAD（之二）

昨天提及WebRTC是由兩個高斯模型組成，而在進行判決時，對每個子頻計算一個二元高斯對數似然比，如下所示：
$https://chart.googleapis.com/chart?cht=tx&chl=L(x_i)%3D%5Clog_%7B%7D%7B%5Cfrac%7BP_S(x_i)%7D%7BP_N(x_i)%7D%20%7D%20$

其中，Ps(x)為第i個子頻語音模型的機率。Pn(x)為第i個子頻雜訊模型的機率。

在各個子類似然比的基礎上，再計算一個全域似然比：
$L(x)=\sum_{i=1}^{6} \alpha_1L(x_1)$

接下來，對每個子頻的似然比和全域似然比均進行一次門限判決，具體的門限值由試驗和經驗舉出。為了避免漏判語音，當子類似然比和全域似然比當中有任何一個超過設定的設定值時，最終判決結果就會認為訊號中存在語音。判決結果由下式舉出：
$F_{VAD}=\left\{\begin{matrix} 1,& L(x)>T\parallel L(x_i)>T_i \\ 0,& other\end{matrix}\right.$

其中，T是全域門限，而T是第i個子頻的門限。 WebRTC有四組預設的門限值，分別對應四種不同的檢測模式，分別為0：通用模式（Normal）；1：低取樣率模式（Low Bitrate）；2：激進模式（Aggressive）；3：非常激進模式（Very Aggressive）。按照數字從小到大的順序，四種模式的門限值依次變大，即檢出語音的標準越來越高。

在進行判決之後，需要進行高斯模型的參數更新。根據當前VAD的判決結果，WebRTC只進行雜訊或語音模型的更新。當判決結果為1（有語音），就只進行語者模型的更新。當判決結果為0（沒有語音），只進行雜訊模型的更新。

以上的VAD演算法透過子頻的特徵計算和高斯混合模型的自我調整更新，實現了比門限判決法具有更高的堅固性。

//高斯模型部分講解完畢，這部分真的好難好難，公式也很有趣，請多多參考喔！